金融咨询网近期会进行系统维护,短暂的等待是为了更稳定的服务,感谢您的支持。
  • 快捷搜索
  • 全站搜索

数据仓库数据管理的关键技术

2012-10-09 16:07:27作者:中国建设银行股份有限公司信息技术管理部厦门开发中心 郑承满编辑:
数据仓库的数据管理只靠新技术或高性能设备是不够的。数据仓库是一项系统工程,做好数据管理需要各个环节的密切配合,特别是技术架构与数据袈构的充分适应。

        跨介质管理的关键技术是数据监控和数据迁移。数据监控的内容是对SQL语句、运行情况和结果进行统计,以便得出数据访问频度和存储位置,并用来制定数据迁移策略。数据迁移方法分为手工转移、分级存储软件和跨介质存储软件,三种技术的优缺点见表1。

表1-1.jpg

        
        跨介质管理技术特征是:行或列级别数据使用情况统计、记录级别上的数据转移、用户透明访问、低成本容量扩展。

三、数据提供
        1.多接口技术
        交易系统主要关注自身业务处理,无需对外部系统提供太多接口。而数据仓库作为基础数据平台,其价值在于为各类应用提供数据支持,分析环境的差异使得数据仓库必须能够提供多种接口来满足交互需求。

        数据仓库的接口技术主要包括:落地文件、数据库直连和库内分析。落地文件技术比较简单,即数据仓库将数据导出文本提供给外部系统。此方法需要耗费外部存储资源,并且如果传输环节较多容易造成数据延迟。数据库直连技术是将数据仓库的数据通过ETL工具直接传输到外部应用数据库,节省了落地时间和外部资源消耗。库内分析技术是BI工具与数据仓库的集成,所有任务在数据仓库内部完成,无需转移到外部系统,消除了上述两种技术中数据抽取。传输和加载的时间消耗,可以充分利用数据仓库的并行性,在大数据量分析方面优势明显。

        数据仓库多接口技术特征是:支持各类语言、支持各类数据分析和挖掘工具、大数据量导出高性能、实现灵活传输和访问。

        2.测试数据获取
        交易系统面向过程处理,业务需求明确;数据仓库面向数据分析,业务需求不确定,传统的开发和测试方法并不适用。但现阶段数据仓库的上述特点尚未被普遍接受,在实际应用中往往还遵循传统的处理流程。要确保数据仓库的应用质量,就必须从生产环境中提取足够的数据作为需求来源和测试基础。

        一般情况下,测试环境的容量和性能要求较生产环境低,需要一套完整的测试数据获取技术和流程,以灵活地生成和传输数据,在满足业务需求的前提下最大限度减少数据量。目前,尚无理想的自动化工具实现数据仓库测试数据的自动获取,最常用的是人工分析方法,也就是在分析既有需求的基础上,得到测试数据生成规则。但是无论怎样,测试数据不可能穷举生产系统的场景,必然存在为一个业务需求多次提取测试数据的情况。

        测试数据获取的基本技术特征是:数据覆盖大部分业务需求、尽可能提取多场景数据、支持频繁的测试数据同步、完善的数据安全机制。

四、其他相关技术
        由于数据仓库与交易系统技术特征不同,一些IT厂商推出了适合数据分析决策的专用数据库,从应用范围上可以分为两种:面向数据集市的多维数据库和面向通用数据分析的列存储数据库。

        1.多维数据库
        数据分析类应用的访问一般基于用户业务分析模式,其特点是将数据组成多维立方体,用户查询相当于在某些维度上加条件,对立方体进行切片、分割,得到的结果是数值矩阵或向量。传统的关系数据库实现多维查询非常低效,查询处理过程也难以实现自动化,多维数据库技术应运而生。

        多维数据库以多维数据存储形式组织数据,按照多维数组格式存放,通过多维视图来观察数据。由于多维数据存在大量稀疏矩阵,与关系数据库相比,多维数据库可以提高数据处理速度,减少反应时间,在小型分析应用中效果较好,适合建立数据仓库的集市应用。

        2.列存储数据库
        列存储数据库基于列存储技术,所记录的每条列不是存储在一起,而是通过页链技术将各列单独存放,页链中每一个页存储对应该列的一个或多个值,有效避免了传统数据库访问中“即使访问一个字段也要读取整条记录”的不足。

        列存储数据库对于复杂查询效率高,I/O小,这些特点使列存储数据库成为构建数据仓库的理想平台。此外,列存储数据库技术在数据仓库领域还有其他优势:一是超强的数据压缩能力;二是适用于数据仓库数据量大、只涉及部分列的处理模式;三是列存储数据库自动为每个字段进行索引,具有较高的查询性能。

        目前,还有很多新技术可以应用到数据仓库领域,如“云计算”技术,使得搭建和使用数据仓库更加容易;Hadoop和MapReduce技术可以解决数据仓库处理非结构化数据的难题等,这些新技术将进一步推动数据仓库的发展。

        由于每个企业的数据仓库环境不同,数据管理的侧重点也存在差异,因此在实际建设中要根据自身情况选择最合适的技术。数据仓库的数据管理只靠新技术或高性能设备是不够的。数据仓库是一项系统工程,做好数据管理需要各个环节的密切配合,特别是技术架构与数据架构的充分适应。

(文章来源:中国金融电脑)
 

首页 上一页 1 2

扫码即可手机
阅读转发此文

本文评论

相关文章